其他
谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合
机器之能报道
编辑:吴昕
又是一个不眠之夜,神仙扎堆献技。
作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中, Gemini 性能都超越了 GPT-4。
目前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。
而 Gemini 最大亮点之一就是原生多模态大模型——设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。
因此,Gemini 可以泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频,远远优于现有(近似)多模态模型,并且它的能力在几乎每个领域都是最强的。
Hassabis 透露,谷歌 DeepMind 已经在研究如何将 Gemini 与机器人技术结合起来,与世界进行物理交互。毕竟,要成为真正的多模态还需要触摸和触觉的反馈。
除了原生多模态的亮点,谷歌表示,Gemini 还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。
Gemini 包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro ,以及适用于特定任务和端侧的 Gemini Nano。
同时,在没有网络连接的情况下使用生成 AI 模型也会让用户感到安全,他们的个人数据不会离开其设备。这也是苹果多年来隐私实践的方向。
据说,Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。虽然谷歌已将它与 Pixel 8 Pro 的操作系统集成,但尚未将其全部功能植入 Google Assistant。
谷歌副总裁兼 Bard and Assistant 总经理 Sissie Hsiao 在新闻发布会上表示,目前正在对这一联姻进行「早期测试」。
写到这里,我们几乎可以嗅到未来在终端,谷歌势必与苹果一战。
接下来几个月,谷歌聊天机器人 Bard 将迎来重大升级 —— 使用 Gemini Pro 的微调版本来执行更高级的推理、规划、理解等任务。不久的将来, Bard 还会扩展到更多模态,支持更多种语言。
为了不被超越,虚拟助手 Meta AI 也在昨晚有了重要更新。
最常用的功能之一 Imagine——文本到图像生成功能,现在有了「重新想象」的新能力,将聊天斗图推到新高度:
使用 Imagine 生成一张图片,你的聊天对象可以按住这张图片,通过简单文本提示进行修改,新功能会生成一张新图片。网友们可以像接龙一样不断修改图片,疯狂搞笑。
Meta 还推出了一个免费网络工具 Imagine with Meta AI ——一个在线 AI 图像生成器(https://imagine.meta.com/),可在几秒钟内创建高分辨率的 AI 图像。它使用公共 Facebook 数据进行训练。
发布会上,与 Gemini 1.0一起亮相的,还有谷歌迄今为止最强大、最高效、可扩展的 TPU 系统 — Cloud TPU v5p,专为训练尖端的 AI 模型而设计,能比 TPU v4 更快地训练大模型。
谷歌表示,TPU 对其在 Gemini 等尖端模型上进行最大规模的研究和工程工作至关重要。
AMD CEO 苏姿丰预计到 2027 年,人工智能芯片市场将达到 4000 亿美元或更多,希望 AMD 能在该市场占据相当大的份额。
AMD 已经与一些最渴望 GPU 的公司签约使用该芯片,包括 2023 年 Nvidia H100 GPU 的两个最大买家 Meta 和微软。
Meta 表示,将使用 MI300X GPU 来处理 AI 推理工作负载,例如处理 AI 贴纸、图像编辑和 AI 助手。
微软首席技术官 Kevin Scott 表示,该公司将通过 Azure 提供对 MI300X 芯片的访问。
甲骨文的云服务也将使用这些芯片。OpenAI 表示,公司开发的 GPU 编程语言 Triton 将从接下来的 3.0 版本开始支持 MI300 等 AMD 芯片。
参考链接
https://about.fb.com/news/2023/12/meta-ai-updates/
https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com